本文描述了对象目标导航任务的框架,该任务要求机器人从随机的启动位置查找并移至目标对象类的最接近实例。该框架使用机器人轨迹的历史记录来学习空间关系图(SRG)和图形卷积网络(GCN)基于基于不同语义标记区域的可能性以及这些区域不同对象类别的发生的可能性。为了在评估过程中定位目标对象实例,机器人使用贝叶斯推理和SRG估计可见区域,并使用学习的GCN嵌入来对可见区域进行排名,并选择接下来的区域。
translated by 谷歌翻译
机器人任务说明通常涉及机器人必须在环境中定位(地面)的引用对象。尽管任务意图理解是自然语言理解的重要组成部分,但努力却减少了解决任务时可能出现的歧义的努力。现有作品使用基于视觉的任务接地和歧义检测,适用于固定视图和静态机器人。但是,该问题对移动机器人进行了放大,其中未知的理想视图是未知的。此外,单个视图可能不足以定位给定区域中的所有对象实例,从而导致歧义检测不准确。只有机器人能够传达其面临的歧义,人类干预才能有所帮助。在本文中,我们介绍了doro(对对象的歧义),该系统可以帮助体现的代理在需要时提出合适的查询来消除引用对象的歧义。给定预期对象所处的区域,Doro通过在探索和扫描该区域的同时从多个视图中汇总观察结果来找到对象的所有实例。然后,它使用接地对象实例的信息提出合适的查询。使用AI2thor模拟器进行的实验表明,Doro不仅更准确地检测到歧义,而且还通过从视觉语言接地中获得了更准确的信息来提高冗长的查询。
translated by 谷歌翻译
自主驾驶的车辆必须能够以无碰撞的方式在动态和不可预测的环境中导航。到目前为止,这仅是在无人驾驶汽车和仓库装置中部分实现的,在该装置中,诸如道路,车道和交通标志之类的标记结构简化了运动计划和避免碰撞问题。我们正在为类似汽车的车辆提供一种新的控制方法,该方法基于前所未有的快节奏A*实现,该方法允许控制周期以30 Hz的频率运行。这个频率使我们能够将A*算法作为低级重型控制器,非常适合在几乎任何动态环境中导航和避免碰撞。由于有效的启发式方法由沿着目标最短路径铺设的旋转 - 翻译 - 旋转运动运动,因此我们的短期流产A*(staa*)会快速收敛,并可以尽早中止,以确保高而稳定的控制速度。尽管我们的staa*沿着最短路径扩展状态,但它会照顾与环境的碰撞检查,包括预测的移动障碍状态,并返回计算时间用完时找到的最佳解决方案。尽管计算时间有限,但由于最短路径的以下路径,我们的staa*并未被困在拐角处。在模拟和实体机器人实验中,我们证明了我们的控制方法几乎完全消除了碰撞,并且具有改进的动态窗口方法的改进版本,并具有预测性的避免功能。
translated by 谷歌翻译
Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.
translated by 谷歌翻译
Automated Market Makers (AMMs) have cemented themselves as an integral part of the decentralized finance (DeFi) space. AMMs are a type of exchange that allows users to trade assets without the need for a centralized exchange. They form the foundation for numerous decentralized exchanges (DEXs), which help facilitate the quick and efficient exchange of on-chain tokens. All present-day popular DEXs are static protocols, with fixed parameters controlling the fee and the curvature - they suffer from invariance and cannot adapt to quickly changing market conditions. This characteristic may cause traders to stay away during high slippage conditions brought about by intractable market movements. We propose an RL framework to optimize the fees collected on an AMM protocol. In particular, we develop a Q-Learning Agent for Market Making Protocols (QLAMMP) that learns the optimal fee rates and leverage coefficients for a given AMM protocol and maximizes the expected fee collected under a range of different market conditions. We show that QLAMMP is consistently able to outperform its static counterparts under all the simulated test conditions.
translated by 谷歌翻译
Identification of named entities from legal texts is an essential building block for developing other legal Artificial Intelligence applications. Named Entities in legal texts are slightly different and more fine-grained than commonly used named entities like Person, Organization, Location etc. In this paper, we introduce a new corpus of 46545 annotated legal named entities mapped to 14 legal entity types. The Baseline model for extracting legal named entities from judgment text is also developed.
translated by 谷歌翻译
最近的研究揭示了NLP数据和模型中的不良偏见。但是,这些努力的重点是西方的社会差异,并且无法直接携带其他地质文化背景。在本文中,我们关注印度背景下的NLP公平。我们首先简要说明印度的社会差异斧头。我们为印度背景下的公平评估建立资源,并利用它们来证明沿着某些轴的预测偏见。然后,我们深入研究了地区和宗教的社会刻板印象,证明了其在Corpora&Models中的普遍性。最后,我们概述了一个整体研究议程,以重新定义印度背景的NLP公平研究,考虑印度社会背景,弥合能力,资源和适应印度文化价值的技术差距。尽管我们在这里专注于“印度”,但可以在其他地理文化背景下进行重新连接化。
translated by 谷歌翻译
人员重新识别(RE-ID)由于其对科学和社会保障的重要性,因此成为计算机视觉最重要的应用领域之一。由于相机系统的尺寸和尺寸巨大,因此开发边缘计算重新ID应用是有益的,在这些应用程序中至少可以通过摄像机执行分析的一部分。但是,常规的重新ID在很大程度上依赖于深度学习(DL)计算要求的模型,这些模型不容易适用于边缘计算。在本文中,我们调整了一种最近提出的重新ID方法,该方法将DL人解析与分析特征提取和排名方案相结合,更适合Edge Computing Re-ID。首先,我们比较使用RESNET101,RESNET18,MOBILENETV2和OSNET骨架的解析器,并表明可以使用紧凑的骨架进行足够的精度来进行解析。其次,我们将解析器转移到Google Coral Dev板的张量处理单元(TPU),并表明它可以充当便携式边缘计算重新ID站。我们还在珊瑚CPU上实施了RE-ID方法的分析部分,以确保它可以执行完整的重新ID周期。为了进行定量分析,我们根据解析器主链比较了GPU和珊瑚TPU的推理速度,解析掩模和重新ID准确性。我们还讨论了Re-ID中边缘计算的可能应用方案,这些限制主要与便携式设备的内存和存储空间有关。
translated by 谷歌翻译
已经观察到,可以从这两种方式中提取视听嵌入,以获得人验证的稳健性。但是,似乎从每个帧中生成单个话语表示的聚合器似乎并未得到很好的探索。在本文中,我们提出了一个视听网络,该网络从融合的角度考虑聚合器。我们首次在面对面验证中引入了改进的细心统计数据。然后,我们发现合并过程中的模式之间存在很强的相关性,因此提出了关节关注的合并,其中包含循环一致性以学习隐式框架间的重量。最后,将这种方式与封闭的注意机制融合在一起。所有提出的型号均在Voxceleb2开发数据集上进行培训,最佳系统分别在Voxceleb1的三个正式步道列表中获得0.18 \%,0.27 \%和0.49 \%EER,据我们所知,这是个人发布的最佳成绩确认。作为分析,生成可视化图来解释该系统如何在模态之间相互作用。
translated by 谷歌翻译
由于Facebook重命名为Meta,因此对Metaverse是什么,其工作原理以及可能利用它的可能方法进行了很多关注,辩论和探索。可以预料,Metaverse将成为迅速新兴技术,用户酶,能力和经验的连续性,这些技术将弥补这一目标的下一个互联网发展。一些研究人员已经调查了有关人工智能(AI)和无线通信的文献,以实现元评估。但是,由于技术的迅速出现,需要对AI,6G和两者在实现元元体验中的AI,6G和Nexus的作用进行全面和深入的评论。因此,在这项调查中,我们首先介绍了增强现实(AR),虚拟现实(VR),混合现实(MR)和空间计算的背景和持续进展,其次是AI和6G的技术方面。然后,我们通过回顾深度学习,计算机视觉和边缘AI中最新的AI来调查AI在元评估中的作用。接下来,我们研究了B5G/6G对Metaverse的有前途的服务,然后确定AI在6G网络和6G网络中的作用在AI中为支持元应用程序。最后,我们征集了现有的和潜在的应用程序,用户赛和项目,以强调元元中进步的重要性。此外,为了向研究人员提供潜在的研究指示,我们从上述技术的文献综述中提出了挑战,研究差距和经验教训。
translated by 谷歌翻译